基于LIDAR的位置识别是环路闭合检测和全局重川化的必要和具有挑战性的任务。我们提出了深度扫描上下文(DSC),一般和辨别的全局描述符,捕获点云的段之间的关系。与以前的方法或相邻点云的序列进行以获得更好的地方识别,我们只使用原始点云来获得竞争结果。具体而言,我们首先将点云分段为摄影云,以获取细分的质心和特征值。然后,我们介绍一个图形神经网络,将这些功能聚合到嵌入式表示中。在基提数据集上进行的广泛实验表明,DSC对场景变体具有强大,优于现有方法。
translated by 谷歌翻译
This paper presents a 3D generative model that uses diffusion models to automatically generate 3D digital avatars represented as neural radiance fields. A significant challenge in generating such avatars is that the memory and processing costs in 3D are prohibitive for producing the rich details required for high-quality avatars. To tackle this problem we propose the roll-out diffusion network (Rodin), which represents a neural radiance field as multiple 2D feature maps and rolls out these maps into a single 2D feature plane within which we perform 3D-aware diffusion. The Rodin model brings the much-needed computational efficiency while preserving the integrity of diffusion in 3D by using 3D-aware convolution that attends to projected features in the 2D feature plane according to their original relationship in 3D. We also use latent conditioning to orchestrate the feature generation for global coherence, leading to high-fidelity avatars and enabling their semantic editing based on text prompts. Finally, we use hierarchical synthesis to further enhance details. The 3D avatars generated by our model compare favorably with those produced by existing generative techniques. We can generate highly detailed avatars with realistic hairstyles and facial hair like beards. We also demonstrate 3D avatar generation from image or text as well as text-guided editability.
translated by 谷歌翻译
Recently, a surge of high-quality 3D-aware GANs have been proposed, which leverage the generative power of neural rendering. It is natural to associate 3D GANs with GAN inversion methods to project a real image into the generator's latent space, allowing free-view consistent synthesis and editing, referred as 3D GAN inversion. Although with the facial prior preserved in pre-trained 3D GANs, reconstructing a 3D portrait with only one monocular image is still an ill-pose problem. The straightforward application of 2D GAN inversion methods focuses on texture similarity only while ignoring the correctness of 3D geometry shapes. It may raise geometry collapse effects, especially when reconstructing a side face under an extreme pose. Besides, the synthetic results in novel views are prone to be blurry. In this work, we propose a novel method to promote 3D GAN inversion by introducing facial symmetry prior. We design a pipeline and constraints to make full use of the pseudo auxiliary view obtained via image flipping, which helps obtain a robust and reasonable geometry shape during the inversion process. To enhance texture fidelity in unobserved viewpoints, pseudo labels from depth-guided 3D warping can provide extra supervision. We design constraints aimed at filtering out conflict areas for optimization in asymmetric situations. Comprehensive quantitative and qualitative evaluations on image reconstruction and editing demonstrate the superiority of our method.
translated by 谷歌翻译
大多数现有的时间序列分类(TSC)模型缺乏可解释性,难以检查。可解释的机器学习模型可以帮助发现数据中的模式,并为域专家提供易于理解的见解。在这项研究中,我们提出了神经符号时间序列分类(NSTSC),这是一种利用信号时间逻辑(STL)和神经网络(NN)的神经符号模型,使用多视图数据表示并将模型表示为TSC任务人类可读,可解释的公式。在NSTSC中,每个神经元与符号表达相关,即STL(sub)公式。因此,NSTSC的输出可以解释为类似于自然语言的STL公式,描述了隐藏在数据中的时间和逻辑关系。我们提出了一个基于NSTSC的分类器,该分类器采用决策树方法来学习公式结构并完成多类TSC任务。 WSTL提出的平滑激活功能允许以端到端的方式学习模型。我们在来自UCR时间序列存储库中的小鼠和基准数据集的现实伤口愈合数据集上测试NSTSC,这表明NSTSC与最先进的模型实现了可比的性能。此外,NSTSC可以生成与域知识匹配的可解释公式。
translated by 谷歌翻译
特洛伊木马攻击对AI系统构成了严重威胁。有关变压器模型的最新著作获得了爆炸性的流行,并且自我展示是无可争议的。这提出了一个核心问题:我们可以通过伯特和VIT中的注意力机制揭示特洛伊木马吗?在本文中,我们调查了特洛伊木马AIS中的注意力劫持模式,当存在特定的触发器时,触发令牌``绑架''的注意力重量。我们观察到来自自然语言处理(NLP)和计算机视觉(CV)域的Trojan变形金刚中劫持模式的一致性劫持模式。这种有趣的财产有助于我们了解伯特和VIT中的特洛伊木马机制。我们还提出了一个关注的特洛伊木马检测器(AHTD),以将特洛伊木马与干净的AI区分开。
translated by 谷歌翻译
扩散MRI拖拉术是一种先进的成像技术,可实现大脑白质连接的体内映射。白质拟层将拖拉机分类为簇或解剖学上有意义的区域。它可以量化和可视化全脑拖拉学。当前,大多数拟层方法都集中在深白质(DWM)上,而由于其复杂性,更少的方法解决了浅表白质(SWM)。我们提出了一种新型的两阶段深度学习的框架,即浅表白质分析(SUPWMA​​),该框架对全脑拖拉机的198个SWM簇进行了有效且一致的分析。一个基于点云的网络适应了我们的SWM分析任务,并且监督的对比度学习可以在SWM的合理流线和离群值之间进行更多的歧视性表示。我们在大规模拖拉机数据集上训练模型,包括来自标签的SWM簇和解剖学上难以置信的流线样本的简化样品,我们对六个不同年龄和健康状况的独立获取的数据集进行测试(包括新生儿和具有空间型脑肿瘤的患者) )。与几种最先进的方法相比,SupWMA在所有数据集上获得了高度一致,准确的SWM分析结果,在整个健康和疾病的寿命中都良好的概括。另外,SUPWMA​​的计算速度比其他方法快得多。
translated by 谷歌翻译
白质图微观结构已显示出影响认知表现的神经心理学评分。但是,尚未尝试从白质图数据中预测这些分数。在本文中,我们提出了一个基于深度学习的框架,用于使用从扩散磁共振成像(DMRI)片段估计的微观结构测量结果进行神经心理学评分的预测,该框架的重点是基于接受语言的关键纤维纤维小道的接受性词汇评估任务的性能弓形筋膜(AF)。我们直接利用来自纤维道中所有点的信息,而无需按照传统上沿着光纤的平均数据进行扩散MRI Tractometry方法所要求的。具体而言,我们将AF表示为点云,每个点都有微观结构测量,从而可以采用基于点的神经网络。我们通过拟议的配对 - 塞亚姆损失来改善预测性能,该损失利用了有关连续神经心理学评分之间差异的信息。最后,我们提出了一种关键区域定位(CRL)算法来定位包含对预测结果有很大贡献的点的信息解剖区域。我们的方法对来自人类Connectome项目数据集的806名受试者的数据进行了评估。结果表明,与基线方法相比,神经心理评分的预测表现优异。我们发现,AF中的关键区域在受试者之间非常一致,额叶皮质区域的强大贡献最多(即,尾部中间额叶,pars opercularis和pars triangularis)与关键区域有着强烈的影响用于语言过程。
translated by 谷歌翻译
扩散MRI拖拉术是一种用于定量映射大脑结构连接性的高级成像技术。全脑拖拉机(WBT)数据包含数十万个单独的纤维流线(估计的大脑连接),并且通常会对这些数据进行分类,以创建用于数据分析应用(例如疾病分类)的紧凑表示形式。在本文中,我们提出了一种新颖的无拟合WBT分析框架Tractoformer,该框架在单个纤维流线的水平上利用拖拉术信息,并提供了使用变压器注意机制来解释结果的自然机制。 Tractoformer包括两个主要贡献。首先,我们提出了一个新颖而简单的2D图像表示WBT,Tractobedding,以编码3D纤维空间关系以及可以从单个纤维(例如FA或MD)计算的任何感兴趣的特征。其次,我们设计了一个基于视觉变压器(VIT)的网络,其中包括:1)数据增强以克服小数据集上过度适应模型的数据,2)识别判别纤维以解释结果,3)合奏学习以从不同大脑区域。在合成数据实验中,TractoFormer成功地识别了具有模拟组差异的判别纤维。在比较几种方法的疾病分类实验中,tractoformer在分类精神分裂症与对照方面达到了最高的精度。在左半球额叶和顶浅的白质区域中鉴定出判别性纤维,这些区域以前已被证明在精神分裂症患者中受到影响。
translated by 谷歌翻译
理由定义为最能解释或支持机器学习模型预测的输入功能的子集。基本原理识别改善了神经网络在视觉和语言数据上的普遍性和解释性。在诸如分子和聚合物属性预测之类的图应用中,识别称为图理由的代表性子图结构在图神经网络的性能中起着至关重要的作用。现有的图形合并和/或分发干预方法缺乏示例,无法学习确定最佳图理由。在这项工作中,我们介绍了一个名为“环境替代”的新的增强操作,该操作自动创建虚拟数据示例以改善基本原理识别。我们提出了一个有效的框架,该框架在潜在空间中对真实和增强的示例进行基本环境分离和表示学习,以避免显式图解码和编码的高复杂性。与最近的技术相比,对七个分子和四个聚合物实际数据集进行的实验证明了拟议的基于增强的图形合理化框架的有效性和效率。
translated by 谷歌翻译
特洛伊木马攻击引起了严重的安全问题。在本文中,我们研究了Trojaned Bert模型的潜在机制。我们观察到木马模型的注意力焦点漂移行为,即,在遇到中毒输入时,触发令牌劫持了注意力的焦点,无论上下文如何。我们对这种现象提供了彻底的定性和定量分析,揭示了对特洛伊木马机制的见解。基于观察结果,我们提出了一个基于注意力的特洛伊木马检测器,以将木马模型与干净的模型区分开。据我们所知,这是第一篇分析特洛伊木马机制并根据变压器的注意力开发特洛伊木马检测器的论文。
translated by 谷歌翻译